Mô hình dự đoán là gì? Các công bố khoa học về Mô hình dự đoán

Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là m...

Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là một thuật toán máy học hoặc một công cụ phân tích dữ liệu khác. Mô hình dự đoán sẽ được đào tạo trên dữ liệu có sẵn, học các mẫu và quy tắc từ dữ liệu đó và sau đó được sử dụng để dự đoán kết quả trên dữ liệu mới. Mỗi mô hình dự đoán có những đặc điểm riêng, và sẽ được chọn dựa trên kiểu dữ liệu, mục tiêu dự đoán và các yêu cầu khác của vấn đề cụ thể.
Mô hình dự đoán là một biểu đồ hoặc công thức mô tả mối quan hệ giữa các biến đầu vào và biến đầu ra trong một hệ thống. Nó được xây dựng dựa trên các quy tắc và mẫu được học từ dữ liệu đào tạo. Mục tiêu của mô hình dự đoán là sử dụng mô hình đã học để dự đoán trạng thái, hành vi hoặc kết quả của các biến đầu ra mới khi chỉ có thông tin về biến đầu vào.

Các mô hình dự đoán có thể thuộc vào nhóm mô hình hồi quy, phân loại hoặc gom cụm, tùy thuộc vào loại dữ liệu đầu vào và loại dự đoán cụ thể. Một số mô hình dự đoán phổ biến bao gồm:

1. Mô hình hồi quy: Dùng để dự đoán giá trị liên tục của biến đầu ra. Ví dụ, mô hình hồi quy tuyến tính sử dụng công thức đươc biểu diễn dưới dạng `y = mx + c`, trong đó `y` là biến đầu ra dự đoán, `x` là biến đầu vào và `m`, `c` là các hệ số dự đoán.

2. Mô hình phân loại: Dùng để phân loại dữ liệu vào các nhóm, ví dụ như phân loại email vào hộp thư rác hay thư thường. Các mô hình phân loại phổ biến bao gồm cây quyết định, máy vector hỗ trợ (SVM) và học sâu.

3. Mô hình gom cụm: Dùng để phân loại dữ liệu thành các nhóm tương tự nhau dựa trên các đặc trưng công việc của chúng. Các mô hình gom cụm phổ biến bao gồm K-Means, K-Medoids và DBSCAN.

Để xây dựng một mô hình dự đoán, phương pháp đào tạo được sử dụng để tìm các quy tắc và mẫu từ dữ liệu huấn luyện. Dữ liệu huấn luyện thường được chia thành tập dữ liệu huấn luyện và tập dữ liệu kiểm tra để đánh giá hiệu suất mô hình. Mô hình dự đoán được đào tạo bằng cách tối ưu hóa hàm mất mát, tối thiểu hóa sai số giữa đầu ra dự đoán và giá trị thực tế của dữ liệu.

Danh sách công bố khoa học về chủ đề "mô hình dự đoán":

Dự đoán cấu trúc protein với độ chính xác cao bằng AlphaFold Dịch bởi AI
Nature - Tập 596 Số 7873 - Trang 583-589 - 2021
Tóm tắt

Protein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.

#dự đoán cấu trúc protein #AlphaFold #học máy #mô hình mạng neuron #sắp xếp nhiều chuỗi #bộ đồ chuẩn hóa #chính xác nguyên tử #tin học cấu trúc #vấn đề gấp nếp protein #CASP14
Phương Trình Dạng Khép Kín Dự Báo Độ Dẫn Thủy Lực của Đất Không Bão Hòa Dịch bởi AI
Soil Science Society of America Journal - Tập 44 Số 5 - Trang 892-898 - 1980
Tóm tắt

Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(h), được giới thiệu trong bài báo này. Dạng cụ thể của phương trình này cho phép đưa ra các biểu thức phân tích dạng khép kín cho độ dẫn thủy lực tương đối, Kr, khi thay thế vào các mô hình độ dẫn dự đoán của N.T. Burdine hoặc Y. Mualem. Các biểu thức thu được cho Kr(h) chứa ba tham số độc lập có thể được xác định bằng cách điều chỉnh mô hình giữ nước trong đất đã đề xuất với dữ liệu thực nghiệm. Kết quả thu được từ các biểu thức khép kín dựa trên lý thuyết Mualem được so sánh với dữ liệu độ dẫn thủy lực quan sát cho năm loại đất có đặc tính thủy lực khác nhau. Độ dẫn thủy lực không bão hòa được dự đoán tốt trong bốn trên năm trường hợp. Kết quả cho thấy rằng việc mô tả hợp lý đường cong giữ nước trong đất ở mức chứa nước thấp là quan trọng để dự đoán chính xác độ dẫn thủy lực không bão hòa.

#Herardic #độ dẫn thủy lực #đường cong giữ nước đất #lý thuyết Mualem #mô hình dự đoán #độ dẫn thủy lực không bão hòa #dữ liệu thực nghiệm #điều chỉnh mô hình #đặc tính thủy lực giấy phép.
Mô hình mới dự đoán độ dẫn nước của môi trường rỗng chưa bão hòa Dịch bởi AI
Water Resources Research - Tập 12 Số 3 - Trang 513-522 - 1976

Một mô hình phân tích đơn giản được đề xuất để dự đoán các đường cong độ dẫn nước chưa bão hòa bằng cách sử dụng đường cong độ ẩm - đầu mao dẫn và giá trị đo được của độ dẫn nước ở trạng thái bão hòa. Mô hình này tương tự như mô hình của Childs và Collis-George (1950) nhưng sử dụng một giả định được điều chỉnh liên quan đến độ dẫn nước của chuỗi lỗ để tính đến tác động của phần lỗ lớn hơn. Một phương pháp tính toán được phát triển để xác định độ ẩm còn lại và để ngoại suy đường cong độ ẩm - đầu mao dẫn như đã đo trong một khoảng hạn chế. Mô hình được đề xuất được so sánh với các mô hình thực tiễn hiện có của Averjanov (1950), Wyllie và Gardner (1958), cũng như Millington và Quirk (1961) dựa trên dữ liệu đo được của 45 loại đất khác nhau. Dường như mô hình mới có sự phù hợp tốt hơn với các quan sát.

Sốc và Ma sát trong Chu Kỳ Kinh Tế Hoa Kỳ: Một Phương Pháp DSGE Bayesian Dịch bởi AI
American Economic Review - Tập 97 Số 3 - Trang 586-606 - 2007

Sử dụng phương pháp khả năng Bayesian, chúng tôi ước lượng một mô hình cân bằng tổng quát ngẫu nhiên động cho nền kinh tế Hoa Kỳ bằng cách sử dụng bảy chuỗi thời gian vĩ mô. Mô hình này tích hợp nhiều loại ma sát thực và danh nghĩa cùng với bảy loại sốc cấu trúc. Chúng tôi chỉ ra rằng mô hình này có khả năng cạnh tranh với các mô hình Tự hồi quy Vector Bayesian trong việc dự đoán ngoài mẫu. Chúng tôi điều tra tầm quan trọng thực nghiệm tương đối của các ma sát khác nhau. Cuối cùng, sử dụng mô hình đã ước lượng, chúng tôi giải quyết một số vấn đề then chốt trong phân tích chu kỳ kinh doanh: Nguồn gốc của các biến động chu kỳ kinh doanh là gì? Mô hình có thể giải thích sự tương quan giữa sản lượng và lạm phát không? Tác động của năng suất đến số giờ làm việc là gì? Nguồn gốc của "Sự điều chỉnh lớn" là gì? (JEL D58, E23, E31, E32)

#mô hình DSGE #chu kỳ kinh doanh #ma sát #sốc cấu trúc #dự đoán ngoài mẫu
Tương lai của các mô hình phân phối: Hiệu chuẩn mô hình và dự đoán độ không chắc chắn Dịch bởi AI
Hydrological Processes - Tập 6 Số 3 - Trang 279-298 - 1992
Tóm tắt

Bài báo này mô tả một phương pháp hiệu chuẩn và ước lượng không chắc chắn cho các mô hình phân phối dựa trên các biện pháp khả năng tổng quát. Quy trình GLUE hoạt động với nhiều bộ giá trị tham số và cho phép rằng, trong các giới hạn của một cấu trúc mô hình nhất định và các lỗi trong điều kiện biên và quan sát thực địa, các bộ giá trị khác nhau có thể có khả năng tương đương nhau như các mô phỏng của một lưu vực. Các quy trình đưa các loại quan sát khác nhau vào hiệu chuẩn; cập nhật Bayes về các giá trị khả năng và đánh giá giá trị của các quan sát bổ sung vào quy trình hiệu chuẩn được mô tả. Quy trình này đòi hỏi tính toán nặng nhưng đã được triển khai trên một máy tính xử lý song song tại chỗ. Phương pháp này được minh họa bằng một ứng dụng của Mô hình Phân phối Viện Thủy văn đối với dữ liệu từ lưu vực thử nghiệm Gwy ở Plynlimon, miền Trung xứ Wales.

Các khu vực có sự tác động mạnh mẽ giữa độ ẩm đất và lượng mưa Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 305 Số 5687 - Trang 1138-1140 - 2004

Các ước tính trước đây về tương tác giữa đất và khí quyển (tác động của độ ẩm trong đất đối với lượng mưa) đã bị hạn chế bởi sự thiếu hụt dữ liệu quan sát cũng như sự phụ thuộc vào mô hình trong các ước tính tính toán. Để khắc phục hạn chế thứ hai này, một tá nhóm nghiên cứu khí hậu gần đây đã thực hiện cùng một thí nghiệm số học được kiểm soát chặt chẽ như một phần của một dự án so sánh hợp tác. Điều này cho phép ước lượng đa mô hình về các khu vực trên Trái đất nơi mà lượng mưa bị ảnh hưởng bởi các bất thường về độ ẩm trong đất trong mùa hè ở Bắc bán cầu. Những lợi ích tiềm năng của ước lượng này có thể bao gồm việc cải thiện dự đoán lượng mưa theo mùa.

#tương tác đất-khí quyển #độ ẩm trong đất #lượng mưa #mô hình khí hậu #dự đoán thời tiết
Mô hình dự đoán quá trình bay hơi từ cây trồng hàng với sự che phủ không đầy đủ Dịch bởi AI
Water Resources Research - Tập 8 Số 5 - Trang 1204-1213 - 1972

Một mô hình được trình bày để tính toán tỷ lệ bay hơi hàng ngày từ bề mặt cây trồng. Mô hình này áp dụng cho tình trạng tán cây của cây hàng trong đó nguồn cung nước từ đất cho rễ cây không bị hạn chế và cây trồng chưa ở giai đoạn trưởng thành hoặc thoái hóa cao. Tỷ lệ bay hơi từ cây trồng được tính bằng cách cộng tổng các thành phần từ bề mặt đất và bề mặt cây (mỗi thành phần trong số này yêu cầu dữ liệu hàng ngày cho chỉ số diện tích lá), bay hơi tiềm năng, lượng mưa và bức xạ ròng trên tán cây. Quá trình bay hơi từ bề mặt đất Es được tính theo hai giai đoạn: (1) giai đoạn với tỷ lệ không đổi trong đó Es chỉ bị giới hạn bởi nguồn cung năng lượng đến bề mặt và (2) giai đoạn tỷ lệ giảm trong đó sự di chuyển nước đến các vị trí bay hơi gần bề mặt được kiểm soát bởi các thuộc tính thủy động lực của đất. Quá trình bay hơi từ bề mặt cây Ep được dự đoán bằng cách sử dụng một mối quan hệ thực nghiệm dựa trên dữ liệu địa phương, cho thấy cách mà Ep liên quan đến Eo thông qua chỉ số diện tích lá. Mô hình đã được sử dụng để thu được tỷ lệ bay hơi tổng E = Es + Ep của một tán cây lúa miến đang phát triển (Sorghum bicolor L.) ở trung tâm Texas. Kết quả phù hợp tốt với các giá trị của E được đo trực tiếp bằng lysimeter cân.

Đánh giá mô hình dự đoán trong PLS-SEM: hướng dẫn sử dụng PLSpredict Dịch bởi AI
European Journal of Marketing - Tập 53 Số 11 - Trang 2322-2347 - 2019
Mục đích

Phương pháp tối thiểu bậc (PLS) đã được giới thiệu như một phương pháp "nguyên nhân-dự đoán" trong mô hình phương trình cấu trúc (SEM), nhằm vượt qua sự phân chia rõ rệt giữa giải thích và dự đoán. Tuy nhiên, trong khi các nhà nghiên cứu sử dụng PLS-SEM thường nhấn mạnh tính chất dự đoán của phân tích, việc đánh giá mô hình lại phụ thuộc hoàn toàn vào các chỉ số được thiết kế để đánh giá sức mạnh giải thích của mô hình đường dẫn. Nghiên cứu gần đây đã đề xuất PLSpredict, một quy trình dựa trên mẫu giữu lại tạo ra các dự đoán ở mức trường hợp về một yếu tố hoặc một khái niệm. Bài báo này cung cấp hướng dẫn để áp dụng PLSpredict và giải thích các lựa chọn chính mà các nhà nghiên cứu cần thực hiện khi sử dụng quy trình này.

Thiết kế/phương pháp/tiếp cận

Các tác giả thảo luận về sự cần thiết của các đánh giá mô hình hướng đến dự đoán trong PLS-SEM và giải thích khái niệm cũng như tiến bộ thêm phương pháp PLSpredict. Ngoài ra, họ minh họa việc sử dụng quy trình PLSpredict với một mô hình tiếp thị du lịch và đưa ra những khuyến nghị về cách kết quả nên được diễn giải. Trong khi trọng tâm của bài báo là quy trình PLSpredict, mục tiêu chung là khuyến khích đánh giá thường xuyên theo định hướng dự đoán trong các phân tích PLS-SEM.

Kết quả

Bài báo thúc đẩy PLSpredict và cung cấp hướng dẫn về cách sử dụng phương pháp đánh giá mô hình theo định hướng dự đoán này. Các nhà nghiên cứu nên thường xuyên xem xét việc đánh giá sức mạnh dự đoán của các mô hình đường dẫn PLS của họ. PLSpredict là một cách tiếp cận hữu ích và đơn giản để đánh giá khả năng dự đoán ngoài mẫu của các mô hình đường dẫn PLS mà các nhà nghiên cứu có thể áp dụng trong các nghiên cứu của họ.

Giới hạn/điều kiện nghiên cứu

Nghiên cứu trong tương lai cần tìm cách mở rộng khả năng của PLSpredict, ví dụ như phát triển thêm các tiêu chuẩn so sánh kết quả PLS-SEM và so sánh thực nghiệm giữa các phương pháp nguyên nhân sớm nhất và phương pháp nguyên nhân trực tiếp trong việc đánh giá sức mạnh dự đoán.

Ý nghĩa thực tiễn

Bài báo này cung cấp hướng dẫn rõ ràng cho việc sử dụng PLSpredict, mà các nhà nghiên cứu và thực hành nên thường xuyên áp dụng như một phần của các phân tích PLS-SEM của họ.

Tính độc đáo/gía trị

Nghiên cứu này củng cố việc sử dụng PLSpredict. Nó cung cấp cho các nhà nghiên cứu tiếp thị và thực hành kiến thức cần thiết để đánh giá, báo cáo và giải thích chính xác các kết quả PLS-SEM. Nhờ đó, nghiên cứu này góp phần bảo vệ tính nghiêm ngặt của các nghiên cứu tiếp thị sử dụng PLS-SEM.

Kích thước mẫu cho các mô hình dự đoán logistic nhị phân: Vượt ra ngoài tiêu chí sự kiện trên biến Dịch bởi AI
Statistical Methods in Medical Research - Tập 28 Số 8 - Trang 2455-2474 - 2019

Hồi quy logistic nhị phân là một trong những phương pháp thống kê được áp dụng thường xuyên nhất để phát triển các mô hình dự đoán lâm sàng. Các nhà phát triển của những mô hình này thường dựa vào tiêu chí Sự Kiện Trên Biến (Events Per Variable - EPV), đặc biệt là EPV ≥10, để xác định kích thước mẫu tối thiểu cần thiết và số lượng biến dự đoán ứng viên tối đa có thể được kiểm tra. Chúng tôi trình bày một nghiên cứu mô phỏng rộng rãi trong đó chúng tôi đã nghiên cứu ảnh hưởng của EPV, tỷ lệ sự kiện, số lượng biến dự đoán ứng viên, tương quan và phân phối của các biến dự đoán ứng viên, diện tích dưới đường cong ROC và hiệu ứng của biến dự đoán đối với hiệu suất dự đoán ngoài mẫu của các mô hình dự đoán. Hiệu suất ngoài mẫu (chuẩn hóa, phân biệt và sai số dự đoán xác suất) của các mô hình dự đoán đã phát triển được nghiên cứu trước và sau khi thu nhỏ hồi quy và chọn biến. Kết quả cho thấy rằng EPV không có mối quan hệ mạnh với các chỉ số hiệu suất dự đoán và không phải là tiêu chí phù hợp cho các nghiên cứu phát triển mô hình dự đoán (nhị phân). Chúng tôi chỉ ra rằng hiệu suất dự đoán ngoài mẫu có thể được xấp xỉ tốt hơn bằng cách xem xét số lượng biến dự đoán, kích thước mẫu tổng thể và tỷ lệ sự kiện. Chúng tôi đề xuất rằng việc phát triển các tiêu chí kích thước mẫu mới cho các mô hình dự đoán nên dựa trên ba tham số này và cung cấp các gợi ý để cải thiện việc xác định kích thước mẫu.

#hồi quy logistic nhị phân #kích thước mẫu #mô hình dự đoán #hiệu suất dự đoán #tiêu chí sự kiện trên biến
Ảnh hưởng của phân chia dữ liệu đến hiệu suất của các mô hình học máy trong dự đoán độ bền cắt của đất Dịch bởi AI
Mathematical Problems in Engineering - Tập 2021 - Trang 1-15 - 2021

Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.

#Học máy #độ bền cắt của đất #Mạng Nơron Nhân Tạo #Máy Học Tăng Cường #thuật toán Cây Tăng Cường #mô phỏng Monte Carlo #địa chất công trình #phân chia dữ liệu #chỉ số thống kê #kỹ thuật dân dụng
Tổng số: 331   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10